高通量药物筛查测定法的最新出现引发了机器学习方法的密集开发,包括预测癌细胞系对抗癌药物的敏感性的模型,以及用于生成潜在药物候选者的方法。然而,尚未全面探索具有特定特性的化合物产生具有特定特性和同时建模其功效的概念。为了满足这一需求,我们提出了Vadeers,这是一种基于各种自动编码器的药物功效估算推荐系统。化合物的产生是由具有半监视的高斯混合模型(GMM)的新型自动编码器进行的。先验定义了在潜在空间中的聚类,其中簇与特定的药物特性相关联。此外,Vadeers配备了单元线自动编码器和灵敏度预测网络。该模型结合了抗癌药物的微笑弦表示的数据,它们对蛋白激酶的抑制作用,细胞系生物学特征以及细胞系对药物的敏感性的测量。评估的Vadeers变体在真实和预测的药物敏感性估计之间达到了较高的R = 0.87 Pearson相关性。我们以一种方式训练GMM先验,使潜在空间中的簇通过其抑制作用对应于药物的预计聚类。我们表明,学到的潜在表示和新生成的数据点准确地反映了给定的聚类。总而言之,Vadeers提供了一种全面的药物和细胞系特性模型及其之间的关系,以及引导的新型化合物。
translated by 谷歌翻译
最近,与神经网络的时间相关微分方程的解决方案最近引起了很多关注。核心思想是学习控制解决方案从数据演变的法律,该数据可能会被随机噪声污染。但是,与其他机器学习应用相比,通常对手头的系统了解很多。例如,对于许多动态系统,诸如能量或(角度)动量之类的物理量是完全保守的。因此,神经网络必须从数据中学习这些保护定律,并且仅由于有限的训练时间和随机噪声而被满足。在本文中,我们提出了一种替代方法,该方法使用Noether的定理将保护定律本质地纳入神经网络的体系结构。我们证明,这可以更好地预测三个模型系统:在三维牛顿引力潜能中非偏见粒子的运动,Schwarzschild指标中庞大的相对论粒子的运动和两个相互作用的粒子在四个相互作用的粒子系统中的运动方面。
translated by 谷歌翻译
电力在不同的时间范围和法规上在各个市场上进行交易。由于更高的可再生能源渗透,短期交易变得越来越重要。在德国,盘中电价通常以独特的小时模式围绕EPEX现货市场的白天价格波动。这项工作提出了一种概率建模方法,该方法对日前合同的盘中价格差异进行了建模。该模型通过将每天的每日价格间隔的四个15分钟的间隔视为四维的关节分布,从而捕获了新兴的小时模式。使用归一化流量,即结合条件多元密度估计和概率回归的深层生成模型,从而学习了最终的多元价格差异分布。将归一化流程与选择的历史数据,高斯副群和高斯回归模型进行了比较。在不同的模型中,归一化流量最准确地识别趋势,并且预测间隔最窄。值得注意的是,归一化流是唯一识别稀有价格峰的方法。最后,这项工作讨论了不同外部影响因素的影响,并发现个人大多数因素都可以忽略不计。只有价格差异实现的直接历史和所有投入因素的组合才能显着改善预测。
translated by 谷歌翻译
Obtaining a dynamic population distribution is key to many decision-making processes such as urban planning, disaster management and most importantly helping the government to better allocate socio-technical supply. For the aspiration of these objectives, good population data is essential. The traditional method of collecting population data through the census is expensive and tedious. In recent years, statistical and machine learning methods have been developed to estimate population distribution. Most of the methods use data sets that are either developed on a small scale or not publicly available yet. Thus, the development and evaluation of new methods become challenging. We fill this gap by providing a comprehensive data set for population estimation in 98 European cities. The data set comprises a digital elevation model, local climate zone, land use proportions, nighttime lights in combination with multi-spectral Sentinel-2 imagery, and data from the Open Street Map initiative. We anticipate that it would be a valuable addition to the research community for the development of sophisticated approaches in the field of population estimation.
translated by 谷歌翻译
我们提出了一种专门的方案生成方法,该方法利用预测信息来生成用于日期调度问题的方案。特别是,我们使用归一化的流量来通过从有条件的分布进行采样,该分布使用风速预测来定制方案到特定的一天。我们将生成的方案应用于风能生产者的随机日期招标问题中,并分析该方案是否产生有利可图的决策。与高斯Copulas和Wasserstein基因的对抗网络相比,正常化的流程成功地缩小了每日趋势周围的各种场景范围,同时保持了各种可能的实现。在随机日间招标问题中,与历史场景的无条件选择相比,所有方法的条件情况都会导致更稳定的盈利结果。归一化流量始终获得最高利润,即使对于小型场景。
translated by 谷歌翻译
卷积神经网络已使基于医学图像的诊断有了重大改进。但是,越来越明显的是,这些模型在面对虚假的相关性和数据集转移时易受性能降解,例如,领导者(例如,代表性不足的患者群体的表现不足)。在本文中,我们比较了ADNI MRI数据集上的两个分类方案:使用手动选择的体积特征的简单逻辑回归模型,以及对3D MRI数据训练的卷积神经网络。我们在面对不同的数据集拆分,训练集的性别组成和疾病阶段的情况下评估了受过训练的模型的鲁棒性。与其他成像方式中的早期工作相反,我们没有观察到培训数据集中多数组的模型性能的明确模式。取而代之的是,尽管逻辑回归对数据集组成完全可靠,但我们发现,在培训数据集中包括更多女性受试者时,男性和女性受试者的CNN性能通常会提高。我们假设这可能是由于两性病理学的固有差异。此外,在我们的分析中,Logistic回归模型优于3D CNN,强调了基于先验知识的手动特征规范的实用性,以及需要更强大的自动功能选择。
translated by 谷歌翻译
现代能源系统的设计和运营受到时间依赖性和不确定参数的严重影响,例如可再生发电,负荷需求和电价。这些通常由称为场景的一组离散的实现表示。一种流行的情景生成方法使用允许场景生成的深生成模型(DGM),而无需现有的数据分布。但是,生成方案的验证很困难,目前缺乏对适当的验证方法的全面讨论。为了开始讨论,我们对能源情景生成文献中当前使用的验证方法的关键评估。特别是,我们评估基于概率密度,自动相关和功率谱密度的验证方法。此外,我们建议使用多重术后波动分析(MFDFA)作为峰,爆发和平稳等非琐碎功能的额外验证方法。作为代表性的例子,我们培养了两种可再生发电时间序列(2013年到2015年德国的Photovolataic Antialsion(VAES),以及来自德国的光伏和风的变分自动化器(VAES)和一天电费时间序列在2017年至2019年形成欧洲能源交换。我们将四种验证方法应用于历史和生成的数据,并讨论验证结果的解释以及验证方法的常见错误,陷阱和局限性。我们的评估表明,没有单一方法足够特征,但理想的验证应该包括多种方法,并且在短时间内的情况下仔细解释。
translated by 谷歌翻译
预计机器学习将推动医疗保健的重大改善。为了确保尊重诸如福利,尊重人类自治,预防伤害,正义,隐私和透明度之类的基本原则,必须负责任地发展医疗机器学习系统。为此,已经提出了许多道德原则的高级声明,但是严重缺乏技术准则,阐明了医疗机器学习的实际后果。同样,目前,关于医疗机器学习系统的确切监管要求也存在很大的不确定性。这项调查概述了以负责任地创建医疗机器学习系统并符合现有法规以及解决这些挑战的可能解决方案所涉及的技术和程序挑战。首先,对影响医学机器学习的现有法规进行了简要审查,表明诸如安全性,鲁棒性,可靠性,隐私,安全性,透明度,解释性和非歧视性诸如现有法律和法规已经要求,尽管在许多情况下,但许多人都要求案例,不确定。接下来,讨论了实现这些理想特性的关键技术障碍,以及在医学背景下克服这些障碍的重要技术。我们注意到分配变化,虚假相关性,模型未指定,不确定性量化和数据稀缺性代表了医疗环境中的严重挑战。有希望的解决方案方法包括使用大型和代表性的数据集和联合学习作为目的的手段,仔细的域知识的利用,固有透明的模型的使用,全面的分布模型测试和验证以及算法影响评估。
translated by 谷歌翻译
基于神经网络的学习,从光伏(PV)和风中的来源以及负载需求的来源的不可转型可再生发电的分布的学习最近得到了注意力。由于通过直接对数似然最大化训练,归一化流量密度模型特别适用于此任务。然而,从图像生成领域的研究表明,标准归一化流量只能学习歧管分布的涂抹版本。以前的作品在规范化基于流的方案生成的情况下,不要解决这个问题,并且掩弹的分布导致噪声时间序列的采样。在本文中,我们利用了主成分分析(PCA)的等距,从而建立了较低尺寸空间中的标准化流量,同时保持直接和计算有效的似然最大化。我们在2013年至2015年培训PV和风力发电的数据以及德国的负载需求的所得到的主要成分流量(PCF)。本研究结果表明,PCF保留了原始分布的关键特征,如作为时间序列的概率密度和频率行为。然而,PCF的应用不限于可再生能力,而是扩展到任何数据集,时间序列或其他方式,可以使用PCA有效地减少。
translated by 谷歌翻译
背景:虽然卷积神经网络(CNN)实现了检测基于磁共振成像(MRI)扫描的阿尔茨海默病(AD)痴呆的高诊断准确性,但它们尚未应用于临床常规。这是一个重要原因是缺乏模型可理解性。最近开发的用于导出CNN相关性图的可视化方法可能有助于填补这种差距。我们调查了具有更高准确性的模型还依赖于先前知识预定义的判别脑区域。方法:我们培训了CNN,用于检测痴呆症和Amnestic认知障碍(MCI)患者的N = 663 T1加权MRI扫描的AD,并通过交叉验证和三个独立样本验证模型的准确性= 1655例。我们评估了相关评分和海马体积的关联,以验证这种方法的临床效用。为了提高模型可理解性,我们实现了3D CNN相关性图的交互式可视化。结果:跨三个独立数据集,组分离表现出广告痴呆症与控制的高精度(AUC $ \ GEQUQ $ 0.92)和MCI与控制的中等精度(AUC $ \约0.75美元)。相关性图表明海马萎缩被认为是广告检测的最具信息性因素,其其他皮质和皮质区域中的萎缩额外贡献。海马内的相关评分与海马体积高度相关(Pearson的r $ \大约$ -0.86,p <0.001)。结论:相关性地图突出了我们假设先验的地区的萎缩。这加强了CNN模型的可理解性,这些模型基于扫描和诊断标签以纯粹的数据驱动方式培训。
translated by 谷歌翻译